¡Ay!: el sobremuestreo y el submuestreo no pueden ayudar a mejorar la precisión en nuestros clasificadores bayesianos que predicen la preeclampsia
Autores: Parrales-Bravo, Franklin; Caicedo-Quiroz, Rosangela; Tolozano-Benitez, Elena; Gómez-Rodríguez, Víctor; Cevallos-Torres, Lorenzo; Charco-Aguirre, Jorge; Vasquez-Cevallos, Leonel
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
¡Ay!: el sobremuestreo y el submuestreo no pueden ayudar a mejorar la precisión en nuestros clasificadores bayesianos que predicen la preeclampsia
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Datos desequilibrados
Algoritmos de aprendizaje automático
Estrategias de sobremuestreo
Estrategias de submuestreo
Modelos de clasificación bayesianos
Preeclampsia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
Los datos desequilibrados pueden tener un impacto en los algoritmos de aprendizaje automático (ML) que construyen modelos predictivos. Este manuscrito estudia la influencia de las estrategias de sobremuestreo y submuestreo en el aprendizaje de los modelos de clasificación bayesiana que predicen el riesgo de sufrir preeclampsia. Dadas las propiedades de nuestro conjunto de datos, solo se tomarán en consideración los métodos de sobremuestreo y submuestreo que operan con atributos numéricos y categóricos. En particular, se consideran técnicas de sobremuestreo de minorías sintéticas para datos nominales y continuos (SMOTE-NC), SMOTE-Encoded Nominal and Continuous (SMOTE-ENC), ejemplos de sobremuestreo aleatorio (ROSE), ejemplos de submuestreo aleatorio (UNDER) y técnicas de sobremuestreo aleatorio (OVER). Según los resultados, al equilibrar la clase en el conjunto de datos de entrenamiento, los porcentajes de precisión no mejoran. Sin embargo, en el conjunto de datos de prueba, tanto los casos positivos como negativos de preeclampsia fueron clasificados con precisión por los modelos, que se construyeron en un conjunto de datos de entrenamiento equilibrado. En contraste, los modelos construidos en el conjunto de datos de entrenamiento desequilibrado no fueron buenos para detectar casos positivos de preeclampsia. Podemos concluir que si bien los conjuntos de datos de entrenamiento desequilibrados pueden abordarse utilizando técnicas de sobremuestreo y submuestreo antes de construir modelos de predicción, no siempre se garantiza una mejora en la precisión del modelo. A pesar de esto, los porcentajes de sensibilidad y especificidad mejoran en problemas de clasificación binaria en la mayoría de los casos, como el que estamos tratando en este manuscrito.
Descripción
Los datos desequilibrados pueden tener un impacto en los algoritmos de aprendizaje automático (ML) que construyen modelos predictivos. Este manuscrito estudia la influencia de las estrategias de sobremuestreo y submuestreo en el aprendizaje de los modelos de clasificación bayesiana que predicen el riesgo de sufrir preeclampsia. Dadas las propiedades de nuestro conjunto de datos, solo se tomarán en consideración los métodos de sobremuestreo y submuestreo que operan con atributos numéricos y categóricos. En particular, se consideran técnicas de sobremuestreo de minorías sintéticas para datos nominales y continuos (SMOTE-NC), SMOTE-Encoded Nominal and Continuous (SMOTE-ENC), ejemplos de sobremuestreo aleatorio (ROSE), ejemplos de submuestreo aleatorio (UNDER) y técnicas de sobremuestreo aleatorio (OVER). Según los resultados, al equilibrar la clase en el conjunto de datos de entrenamiento, los porcentajes de precisión no mejoran. Sin embargo, en el conjunto de datos de prueba, tanto los casos positivos como negativos de preeclampsia fueron clasificados con precisión por los modelos, que se construyeron en un conjunto de datos de entrenamiento equilibrado. En contraste, los modelos construidos en el conjunto de datos de entrenamiento desequilibrado no fueron buenos para detectar casos positivos de preeclampsia. Podemos concluir que si bien los conjuntos de datos de entrenamiento desequilibrados pueden abordarse utilizando técnicas de sobremuestreo y submuestreo antes de construir modelos de predicción, no siempre se garantiza una mejora en la precisión del modelo. A pesar de esto, los porcentajes de sensibilidad y especificidad mejoran en problemas de clasificación binaria en la mayoría de los casos, como el que estamos tratando en este manuscrito.